【ArXiv】POPE_6-DoF Promptable Pose Estimation of Any Object, in Any Scene, with One Reference

发布日期：2023-07-07 返回

POPE: 6-DoF Promptable Pose Estimation of Any Object, in Any Scene, with One Reference

分享人：任家乐
研究方向：物体位姿估计
论文题目：POPE: 6-DoF Promptable Pose Estimation of Any Object, in Any Scene, with One Reference
论文作者：Zhiwen Fan, Panwang Pan, Peihao Wang, Yifan Jiang, Dejia Xu, Hanwen Jiang, Zhangyang Wang
作者单位：得克萨斯大学奥斯汀分校、字节跳动
论文摘要：尽管在六自由度 (6DoF) 物体位姿估计方面取得了重大进展，但现有方法在涉及实体目标和下游3D视觉任务的现实场景中的适用性有限。这些局限主要来自3D模型、封闭类别检测和大量密集注释的支持视图的必要性。为了缓解这些问题，本文提出了一种物体位姿估计的通用范例，称为即时物体位姿估计（POPE）。所提出的POPE方法能够对任何场景中的任何目标对象进行零样本6DoF对象位姿估计，同时仅采用单个参考作为支持视图。为了实现这一目标，POPE利用预训练的大规模2D基础模型的强大功能，并采用了具有分层特征表示和3D几何原理的框架。此外，它还可以估计新视图中对象提示和目标对象之间的相对相机位姿，从而实现双视图和多视图6DoF位姿估计任务。综合实验结果表明，POPE在零样本设置中表现出卓越的鲁棒性能，在LINEMOD和OnePose数据集上实现平均中位姿势误差分别显著降低52.38%和50.47%。本文还在因果捕获的图像中进行了更具挑战性的测试（见图 1），这进一步证明了POPE的鲁棒性。项目页面可以通过 https://paulpanwang.github.io/POPE/找到。
原文链接：

点击此处